Sistema de base de datos relacionales – "Teradata database" (página 2)

Enviado por Sanchez Guerra, Rudy Wilson

Partes: 1, 2, 3, 4

Teradata
Milestones

1976 -1979	Teradata evoluciona gracias al Instituto de Investigación de California (Caltech) y a discusiones del Grupo Avanzado de Investigaciones del Citybank; Caltech propuso el ¿Qué? Y Citybank el ¿Porque? Ambas ideas se fusionaron en 1979. los fundadores trabajaron en el diseño de un administrador de base de datos revolucionario, para el procesamiento en paralelo con múltiples procesadores, específicamente para soporte de decisiones; estos procesadores fueron agrupados para que su trabajo en conjunto sea mucho mejor que el de uno solo con la suma de todas sus potencias
1979	Un 13 de julio de 1979 Teradata inicia sus actividades en un garaje en Brentwood California, Teradata nombre cual simbolizaba la habilidad de administrar Terabytes de datos (trillones de bytes), sus fundadores trabajaron en su financiamiento, para Marzo de 1980 con $150.000, el diseño y su patente hicieron que el trabajo sea mucho mas serio.
1980	En Julio con alrededor de $2.5 millones de dolares, permitieron que la compañía deje de emplear el equipo R&D.
1983	Justamente para Navidad, la primera beta del sistema estaba lista para el "Wells Fargo Bank"
1986	Al finalizar Junio La revista Fortune nombra a Teradata "Producto del año"
1990	Teradata y NCR Corporation se asociaron para construir "la próxima generación de base de datos para computadoras"
1991	En setiembre AT&T adquirio NCR y para diciembre NCR anuncio la adquisición de Teradata.
1992	En enero el primer sistema sobre 1 Terabyte cobro vida en los almacenes Wal-Mart.
1994	Gartner nombra a Teradata "Líder del proceso en paralelo"
1995	El grupo de consultoria IDC nombra a Teradata Numero 1 en MPP (Procesamiento Masivo en Paralelo) en el Computer World Magazine.
1996	Teradata, la base de datos mas extensa en el mundo con 11 Terabytes en datos; Gartner añadio "… Teradata V2 ha probado su escalabilidad…" y The Data Warehouse Institute premio a Teradata como su mejor practica en Data Warehousing.
1997	En enero NCR se independizo de AT&T como marca registrada, La base de datos de uno de los clientes de Teradata fue las mas extensa en producción con 24 Terabytes en datos de usuario, recibiendo asi el premio a "The data Warehouse Best Practices" en el DBMS Readers Choice Awards.
1998	Teradata se orienta a Windows NT.
1999	La base de datos de uno de los clientes de Teradata tenía ya 130 Terabytes en datos de usuario con 176 nodos en actividad.
2000	La primera aplicación empresarial para detallar la medida de beneficios del cliente denominada VA (Value Analyzer) fue lanzada para Royal Bank de Canadá, donde se convirtió en un éxito, luego VA fue adoptado por diez clientes adicionales de Teradata. Luego Teradata adquirió como compañero de negocios a Stirling Douglas Group, adicionando (DCM) Demand Chain Management software, incrementando asi su familia de aplicaciones empresariales.
2001	Teradata duplica sus líneas de código (1.6 millones a 3.8 millones). Introduce así FM Solution (Financial Management), una arquitectura analítica compuesta por hardware, software, consultoría profesional y soporte de servicios. Integrando así datos hacia un modelo de datos financiero para aplicaciones operacionales, permitiendo a la compañía generar reportes sobre sus actividades financieras minimizando costos y esfuerzo.
2002	Teradata lanza Teradata Warehouse 7.0, luego adquirió Sagetree, desarrollador de software SCI (Supply Chain Intelligence), ampliando su familia de soluciones empresariales.
2003	Más de 120 compañías líderes de la industria migraron de Oracle a Teradata desde el lanzamiento del programa de migración. Se crea la Red universitaria Teradata para la comunidad académica de Data Warehousing, cerca de 170 universidades de 27 países fueron integradas a la red. Teradata CRM V5(Customer Relationship Manager), fue lanzado, integrando capacidades analíticas en una sola aplicación sofisticada.
2004	Teradata y SAP, compañías líderes en proveer soluciones de software, anuncian una tecnología conjunta, para desarrollar soluciones analíticas para las industrias con altos requerimientos en volúmenes de datos. Teradata lanza Teradata Warehouse Miner 4.0, y Teradata Profiler Data Mining Tool que automatiza significativamente las tareas mas difíciles que demandan mas tiempo y esfuerzo en el análisis y preparación de datos.
2005	Teradata lanza "Teradata Warehouse 8.1" que incorpora "Enterprise Intelligence" soporte inteligente para decisiones, con una combinación de reportes históricos y análisis predictivo en "casi" tiempo real de actividades de negocio. Siebel Systems Inc., líder en proveer soluciones de software empresarial, anuncia una alianza estratégica para integrar y optimizar productos. Teradata incorpora sus servicios para Linux en adición a su línea para Windows y su propia plataforma UNIX MP-RAS. Teradata introduce Teradata Relationship Manager V6.0, una nueva solución para la integración de relaciones con clientes y análisis empresarial, y herramientas de comunicación que optimizan la administración de Teradata.

Capítulo
I: Data Warehousing

¿QUÉ ES DATA WAREHOUSE?

Es un depósito de información integrada, disponible para
consultas y análisis, la información que es
extraída o generada desde fuentes
heterogéneas, esto hace mucho más fácil y
eficiente el realizar consultas sobre los datos que
originalmente están distribuidos en distintas
locaciones.

También se le conoce como una colección
lógica de información almacenada
desde diferentes bases de datos
operacionales, usadas para crear negocios inteligentes, dando
soporte al análisis de actividad de negocios, y tareas
de decisión (un almacén
de información operacional y transaccional),
diseñada para proveer datos eficientes de
análisis y para reportes especialmente (OLAP), Data
Warehousing podría significar datos 'virtuales' o 'punto
a punto'.

¿QUE ES UNA DATA WAREHOUSE
ACTIVA?

Permite dar respuesta a preguntas importantes no
referentes únicamente a decisiones estratégicas,
pero son orientadas a decisiones tácticas de
realización.

CONSULTAS ESTRATÉGICAS

Las consultas estratégicas son usadas cuando se
desea tomar un aprovechamiento pro-activo para el futuro
cercano, la información que produce que se utiliza para
desarrollar un plan cohesivo o
un curso de acción.

Los datos almacenados que soportan consultas
estratégicas deben ser históricos en naturaleza
de manera que provean una representación fiable de lo
que estuvo sucediendo en el pasado, involucran procesamiento de
volúmenes de datos.

CONSULTAS TÁCTICAS

Las consultas tácticas son muy útiles
para el futuro de corto plazo, son reactivas y manejables por
eventos, tienen
algunos datos de requerimiento estratégicos por que
actúan en base a la información histórica,
los datos que proveen son actuales y consistentes.

TERADATA WAREHOUSE ACTIVA

El entorno de Teradata provee utilidades que son
cargadas en un tiempo reducido, proveniente desde una fuente,
para todos los clientes que requieren de estos datos, Teradata
Warehouse no solo incluye la base de datos, sino un pull de
herramientas y utilidades, conformando así una suite de
administración organizada en las
siguientes categorías.

Categoría de la utilidad	Usada para…
Teradata Utility Pak	Orientada para un ambiente de red corporativa
Teradata PreProcessors	Acceso a la base de datos interpretando las sentencias Teradata SQL escritas en C o Cobol.
Carga y Descarga	Cargar datos dentro de una que aun no es permanente en la base de datos.
Data Base Management Utilities	Permite el control de las base de datos
Teradata Analyst Pack	Analiza el rendimiento de la base de datos y mejora su eficiencia en las consultas.
Storage Management	Permite la administración de los datos en los discos fisicos, su restauración y copia de seguridad.
Teradata Meta Data Services	Alamacenar, administrar, y navegar en el data warehouse

Tabla N° 1. Categoría de
utilidades de Teradata.

Capítulo
II: Modelo de Bases de Datos de Teradata

Este apartado describirá los conceptos sobre
el modelamiento de base de datos relacionales.

¿QUE ES UN MODELO RELACIONAL?

El modelo relacional de administración de base
de datos fue derivado de conceptos matemáticos, donde se
define a una tabla como relación, el numero de filas
define su cardinalidad de la relación, y el numero de
columnas es el grado de relación, cualquier
manipulación de la tabla en una base de datos
relacional, tiene un consistente y predecible resultado por que
estas relaciones fueron definidas
matemáticamente.

Los productos de administración de base de
datos, basado en redes jerárquicas u
orientadas a objetos, no son construidas en base
teóricas sustentables, de modo que su comportamiento no es predecible en
comparación a productos relaciónales.

Por ejemplo un optimizador de sentencias SQL para la
base de datos usa el álgebra
relacional para construir el camino mas eficiente de acceso a
los datos requeridos, este puede adaptarse a cambios en las
variables
del sistema, reconstruyendo sus modos de acceso sin
intervención de programación, esta adaptabilidad es
necesaria pues las definiciones de la base de datos no son
estáticas y pueden cambiar en el tiempo.

¿QUE ES UNA BASE DE DATOS
RELACIONAL?

Se entiende como una colección de objetos, como
tablas, vistas, macros,
procedimientos almacenados, y triggers los
cuales san fácilmente manipulables usando aplicaciones
directas y especificas en sentencias SQL.

TERMINOLOGÍA DE BASE DE DATOS
RELACIONAL

Las bases de datos relaciónales son una
generalización de relaciones basadas en fundamentos
teóricos matemáticos, pero no existe un modo
dependiente el uno del otro.

Fundamentos Matemáticos	Terminología de Base de datos Relacional
Relación	Tabla
Tupla	Filas (registros)
Atributo	Columna

Tabla N°2. Comparativa de
terminología matemática
VS. RDBMS

TERADATA DATABASE

Es un almacén de información vinculada con
herramientas y utilidades que hacen parte de una suite de
DataWare Housing, un completo y activo sistema de
administración de base de datos relacionales o
RDBMS.

PROPÓSITO DE DESARROLLO

Teradata ha sido diseñado como un sistema que
permite a los usuarios a visualizar y administrar cantidades
inmensas de datos, como una colección de tablas
relacionales, algunas capacidades de Teradata Database si
listan en la siguiente tabla:

Teradata Provee…	El Cual…
Capacidad	Terabytes de datos almacenados en billones de filas. Cientos de millones de instrucciones por segundo (MIPS) para el procesamiento de datos.
Procesamiento en Paralelo	Hace que Teradata Database, sea la más rápida frente a otros sistemas relaciónales.
Almacén de datos simplificado	Puede ser accesible por un sistema de red o conectado por canales. Soporta los requerimientos de una amplia diversidad de clientes.
Tolerancia a fallos	Detecta automáticamente y se recupera contra fallos de hardware.
Integridad de Datos	Asegura que las transacciones completas o incompletas permanezcan estables en caso de fallos.
Crecimiento escalable	Permite que el sistema se expanda sin necesidad de sacrificar su rendimiento.
SQL	Provee un Lenguaje de acceso estándar.

Tabla N°3. Características de
Teradata

TABLAS, FILAS Y COLUMNAS

Las tablas son objetos de dos dimensiones consistentes
en filas y columnas, los datos están organizados en el
formato de la tabla, y es presentada al usuario como un modelo
relacional de base de datos, las referencias entre tablas
definen sus relaciones y restricciones de datos dentro de cada
una de ellas.

RESTRICCIÓN DE TABLAS (TABLE
CONSTRAINTS)

Al momento de crear la base de datos y por coincidente
sus tablas, se define ciertas condiciones denominadas
Restricciones (constraints) las cuales pueden incluir rangos,
condiciones, dependencias, etc. Durante dicha creación o
modificación se puede especificar su rango de
acción, en la columna, parte de la columna o
múltiples columnas usando las sentencias CREATE y ALTER,
esto se detallará en el capitulo de sentencias
SQL

TABLAS PERMANENTES Y TEMPORALES

Para manipular datos, se debe de remitir una consulta
en un lenguaje que la base de datos pueda entender, para el
caso de Teradata Database este lenguaje es SQL, de modo que se
puede almacenar los resultados de múltiples consultas en
muchas tablas, almacenar estos datos de manera permanente es
necesario cuando muchos usuarios quieran acceder a su
contenido.

Cuando las tablas son requeridas para una
sesión simple, el sistema crea tablas temporales, de
modo que podamos también salvar el contenido del
resultado para una subsiguiente consulta dentro de la misma
sesión. También se puede desglosar complejas
consultas en otras más pequeñas, nótese
que estas tablas temporales se perderán al terminar la
sesión.

TABLAS TEMPORALES GLOBALES

Son tablas que existen únicamente en la
sesión de consulta SQL, los contenidos de las mismas son
privadas para la sesión no accesibles para otros
usuarios, la cual será eliminada al terminar dicha
sesión, pero el sistema guarda la definición de
dicha tabla de manera permanente en su diccionario de
datos, dicha definición podría ser compartida
por múltiples usuarios y sesiones de modo que cada
sesión disponga de su propia instancia de la
tabla.

TABLAS VOLÁTILES TEMPORALES

Si se requiere una tabla de uso simple, se puede
definir esta como una tabla volátil temporal, se
entiende que esta tabla permanecerá en memoria pero
desaparecerá cuando por ejemplo el sistema sea
reiniciado.

Solo el creador puede acceder a esta tabla, la cual es
mas efectiva que usar una de tipo global pues su
definición no se adicionara al diccionario
de datos.

TABLAS DERIVADAS

Es un tipo especial de tabla, la cual se deriva del
tipo de consulta SQL realizada, lo que permite evitar el uso de
CREATE y DROPTABLE, para el almacenamiento de la
información.

FILAS Y COLUMNAS

Una columna siempre contiene el mismo tipo de
información y solo puede existir el mismo tipo de
información en dicha columna, por otro lado una fila es
una instancia de toda la columna en una tabla, las filas y
columnas en la tabla representan las entidades o
relaciones.

Una entidad es una persona, lugar
o cosa de la cual la tabla posee información, el modelo
relacional requiere se identifique una fila en una tabla de
manera única, para lo cual se define una llave
primaria.

Capítulo
III: Arquitectura de Hardware y Software

Este capitulo describe los componentes de la
arquitectura de hardware y software. El soporte de Hardware de
teradata esta basado en la tecnología de
multiprocesamiento simétrico, la combinación de
este hardware en una red de comunicaciones permite que se forme un sistema
MPP o conocido como sistema masivo de procesamiento en
paralelo…

INFORMACIÓN DE ARQUITECTURA
COMPARTIDA

La meta de diseño de Teradata fue proveer un
almacenamiento de datos simplificado para una variedad de
arquitecturas orientada a diversos clientes, poseer un simple
recurso minimiza la duplicación de datos, el
aprovechamiento de almacenamiento conocido como SIA (Shared
Information Arquitecture) utilizado por Teradata para la
creación de su base de datos, lo que elimina la
necesidad de mantener bases de datos duplicadas y
diversificadas en diferentes plataformas.

SIA, permite que muchos clientes de mainframes, redes
locales, o computadoras personales, puedan acceder y manipular
la misma base de datos de manera simultanea, la siguiente
figura ilustra el principio de SIA.

PLATAFORMAS SMP Y MPP

MPP (masivo proceso paralelo) y de SMP
(multiprocessing simétrico). SMP comparte los datos
almacenados en los discos con todo el CPUs del sistema Los
sistemas Windows NT utilizan tecnología SMP en
ejecución y soportan hasta cuatro CPUs en un solo nodo
de SMP. Siendo estos escalables hasta cierto número de
procesadores. Una vez que se alcance ese umbral, los gastos
indirectos para manejarlos llegan a ser mayores que las
ventajas de agregar otra CPU. El
número de los procesadores usados depende de la velocidad de
los mismos.

Los sistemas de MPP son ilimitados en su
escalabilidad. Mientras que se agregan los nodos de SMP, los
gastos indirectos siguen siendo iguales, algunos clientes de
Teradata tienen sistemas de MPP que abarcan más de 150
CPUs.

Estos componentes son:

Componente

Descripción

Función

Nodo de Procesador

SMP. La conjunción de muchos procesadores
(CPUs) en una configuración SMP, donde un nodo de
procesamiento posee las siguientes
características.

Software Teradata Database

Software de Interfaz para el cliente.

MPP es una configuración de uno o mas
nodos SMP con acceso a múltiples discos
compartidos SCSI.

Provee una plataforma de hardware desde donde
opera la base de datos.

BYNET

Red de Interprocesamiento para el vínculo
de nodos en un sistema MPP.

Implementa comunicaciones Broadcast, Multicast o
Point to Point entre los procesadores, dependiendo de la
situación.

Tabla N° 4 Plataforma
SMP-MPP

Estas plataformas usan procesadores virtuales que
ejecutan una serie de procesos en
un nodo bajo el modelo de Base de datos Extendidas en Paralelo
(PDE). Los procesadores virtuals (Vprocs) proveen el ambiente
en paralelo que permite que las Base de Datos Teradata sea
ejecutada en Sistemas SMP y MPP.

BYNET

Como nivel mas elemental, BYNET es donde convergen los
nodos SMP, formando un sistema de bus de
comunicaciones de alta velocidad y provee Broadcast
bidireccional, Multicast, y Punto a Punto, en un multimodo al
menos existirá dos BYNETs creando un ambiente de
comunicaciones optimo para la transmisión de
información.

Si un BYNET cae, el segundo manejaría todo su
trafico, el ancho de banda para cada nodo o vinculo en la red
será 10Mb, pues cada nodo al menos tiene 2
vínculos de red, este ancho de banda es
linealmente-escalable, por ejemplo un sistema de 16 nodos posee
320Mb de ancho de banda para conexiones punto a punto, haciendo
que el total disponible para cada nodo sea de 20mb.

El software BYNET también provee el Standard
TCP/IP como
interfase de comunicaciones entre los nodos SMP.

Figura N° 3. Estructura
BYNET

COLECCIÓN DE DISCOS (DISK
ARRAY)

Teradata emplea Discos de almacenamiento de
tecnología RAID (Redundant Array of Independent Disks)
parar proteger los datos a nivel de discos utiliza el
Administrador RAID para agrupar las unidades en Colecciones
(Arrays), para asegurar la disponibilidad de datos en caso de
la falla de un disco, cada array de discos consiste, en una o
cuatro rangos de discos, con mas de cinco discos por rango,
redundancia implica que ni los datos ni las funciones o los
componentes sean duplicados en la arquitectura del
array.

UNIDADES LÓGICAS

RAID Manager, utiliza grupos de
discos, un grupo esta configurado en una o mas unidades
lógicas (LUNs). Una LUN (unidad lógica) es una
porción de cada disco en cada grupo. Dicha
porción esta configurada para representar un solo disco.
Y cada LUN es únicamente identificado por el sistema NCR
UNIX MP-RAS.

CLIQUES

Un clique es la característica de un sistema
multinodo, que físicamente agrupa nodos a través
de acceso multipuerto, a unidades comunes de discos (Disk
Arrays). La conexión de Arrays de Discos Inter-nodos son
hechos mediante buses SCSI

Fig. N° 4 Conectividad de los
cliques

Clique es el mecanismo que permite migrar los datos a
otro nodo en caso de fallo, permitiendo que este proceso
continué ejecutándose mientras el nodo de fallo
se recupera.

PROCESADORES VIRTUALES

La versatilidad de Teradata esta basada en
procesadores virtuales (vprocs) que eliminan la dependencia de
procesadores físicos especializados, Vprocs son un
conjunto de aplicaciones de proceso que ejecutan un nodo dentro
de Las Extensiones de base de datos paralelas Teradata (PDE),
dentro de un ambiente multitareas. Estos tipos de Vprocs
son:

PE: Mejora el rendimiento en el control de
tareas, con funciones de parseo.

AMP: Mejora el rendimiento de las funciones de
la base de datos, para el ingreso o actualización de
datos en los discos virtuales.

Un solo sistema puede soportar un máximo de
16,384 vprocs donde el máximo número de vprocs
por nodo puede ser de hasta 128.

MOTOR DE PARSEO

Un PE, es el proceso que comunica a un cliente del
sistema con los AMPs (via BYNET), donde cada PE ejecuta el
software de la base de datos para administrar sesiones,
descompone sentencias SQL, en secuencia de pasos, posibilita el
paralelismo, y devuelve una respuesta al cliente que la
solicita.

El software PE contiene lo siguientes
elementos:

Elemento del motor de parseo	Procesos
Parser	Descompone sentencias SQL en procesos de administración paso a paso.
Optimizer	Determina el camino mas rápido para acceder a los datos.
Generator	Generaliza y empaqueta procedimientos
Dispatcher	Recibe procedimientos del parser y los envía a la AMP apropiada
Dispatcher	Monitorea que los procesos sean completados y manipula los errores encontrados durante el proceso.
Session Control	Administra los inicios, cierres de sesión y la validación de contraseñas. Recupera la sesión de trabajo en caso de fallas en el cliente o el servidor.

Tabla N°5. Software de
Parseo

MÓDULO DE ACCESO AL PROCESADOR

El corazón
de la base de datos Teradata es el AMP, el cual es un Vproc
(procesador
virtual) que controla la administración de la base de
datos y el subsistema de discos, con cada AMP bien asignada a
un Vdisk

Funciones de
AMP

Por ejemplo

Administración de tareas de la base de
datos

– Cuentas

– Monitoreo de base de datos, tablas y
filas.

– Conversión de datos

Durante el procesamiento de
consultas.

– Ordenar datos

– Juntar filas de datos

– Agregar datos

File-System Management

Administración de espacio en
disco

Tabla N°6 Funciones del Modulo de
Acceso

Cada AMP representada en la siguiente figura,
administra un fragmento de espacio en los discos duros
físicos, cada AMP almacena su fragmento de tabla dentro
de ese espacio asignado.

Figura N° 5 Proceso de
Comunicación y acceso

Cluster AMP

Los AMPs son agrupados dentro de clusters
lógicos, para mejorar la tolerancia a
fallos con la base de datos.

PROCESO DE CONSULTAS CON LA HERRAMIENTA DE
PARSEO

Las sentencias SQL son utilizadas para generar
consultas o interactuar con la base de datos, el manejo de SQL
Parser para todas las consultas entrantes se describe en la
siguiente tabla.

1. Parser verifica en la cache si la consulta ya fue realizada anteriormente, entonces:
Si la consulta…	Acción de "Parser"
…esta en la cache.	Reutiliza las consultas ya generadas anteriormente que fueron almacenadas en la cache. "Eventos Plasticos" son directivas para la administración de la base de datos los cuales no contienen valores en sus datos
…no esta en la cache	Comienza el su proecesamiento con el "Syntaxer"
2. Syntaxer verifica la consulta entrante, entonces…
Si existe…	Acción del "Syntaxer"
… consulta sin errores	Convierte la consulta en un árbol de parseo y lo procesa para su resolución al "Resolver"
… errores en la consulta	Paraliza la sentencia y notifica el suceso.
3. Resolver agrega información desde el diccionario de datos, para convertir la base de datos, tabla, procedimiento almacenado, y nombre macroa identificadores internos.
4. El modulo de seguridad verifica los derechos de acceso a el diccionario de datos.
Si lo derechos de acceso son…	Acción del modulo de seguridad
Validos	Pasa la consulta al "Optimizer"
No Validos	Aborta el proceso de consulta y lo notifica.
5. Optimizer determina la forma mas efectiva de para implementar la consulta SQL
6. Optimizer explora la consulta para localizar los bloqueos, entonces pasa el Arbol de optimizacion de parseo al "Generator"
7. "Generator"transforma el arbol de optimizacion de parseo en, "eventos plasticos" y los pasa a "gncApply"
8. "gncApply" toma esos eventos producidos por el "Generator" y los transforma en pasos concretos Los "pasos concretos" son directivas de las AMPs que contienen cualquier sesion de usuario especifico.
9. "gncApply" pasa estos pasos al "Dispatcher"

Tabla N° 7. Proceso de consultas con
el parsing.

EL "DISPATCHER"

Controla la secuencia de pasos a ser ejecutados, para
ser distribuidos al administrador de base de datos, la
secuencia de acción es como sigue

1. "Dispatcher" recibe los pasos concretos de
"gncApply"

2. "Dispatcher" localiza el primer paso en "BYNET",
y se comunica para el proceso de los datos.

3. "Dispatcher" recibe las respuestas para
completar dichos procesos, has que todas las solicitudes sean
realizadas.

LAS AMPs

Cuando se obtienen las filas requeridas para el
procesamiento de las consultas (asumiendo que las AMPs son
procesadas por una consulta SELECT). BYNET transmite mensajes a
las AMPs, la siguiente figura ejemplifica lo antes
mencionado.

Figura N°6 Procesamiento de
consultas

EJEMPLO: SENTENCIA SQL

Como ejemplo, se usara una sentencia SQL para
Teradata, usando una tabla conteniendo información
contable, el ejemplo asume que la columna AcctNo, es el
único índice primario para Table_01.

1. SELECT * FROM Table_01 WHERE AcctNo =
129317;

2. SELECT * FROM Table_01 WHERE AcctBal >
1000;

Para este pequeño ejemplo:

PE 1 (Parse Engine "Motor de Parseo") recibe consulta
1 y 2.
Los datos para la cuenta 129317 esta contenido en la
fila R9 de la tabla, y almacenada en AMP1
La información de todas las cuentas esta
distribuida en todos los discos de las AMPs.

EXTENSIONES DE BASE DE DATOS PARALELAS
(PDE)

PDE es una capa de interfaz de software que esta
encima del sistema
operativo. El sistema operativo puede ser UNIX MP-RAS,
Microsoft
Windows, donde PDE provee a la base de datos Teradata con la
siguiente habilidad.

Ejecuta la base de datos Teradata en un ambiente en
paralelo.
Ejecuta vprocs (procesos virtuales).
Aplica una prioridad flexible para la planificación de sesiones en la base de
datos.Depura el kernel del sistema operativo residente en el y
en la base de datos.

SISTEMAS MPP Y PDE

PDE permite al sistema MPP lo siguiente:

Toma ventaja de las características de
hardware, BYNET y los discos compartidos.
Procesa las aplicaciones de usuario que fueron
escritas en una aplicación no-paralela.

SISTEMA DE ARCHIVOS
TERADATA

El propósito principal del sistema de archivos
Teradata es proveer una capa entre el software de la base de
datos y la capa PDE, permitiendo que los datos almacenados sean
eficientes y consistentes.

Los bloques de datos son estructuras
de disco que contienen una o mas filas de una tabla, y es una
unidad física de entrada/salida para el sistema
de archivos, los cuales son almacenados en un espacio del disco
físico, lo cuales están agrupados en
cilindros.

Cylinder Read, es una capacidad del
sistema de archivos Teradata, que permite operaciones de
exploración para ejecutar de manera eficiente, la lectura
de cilindros y bloque de datos en una sola operación de
entrada/salida, esto significa que el sistema lee/escribe los
datos por cilindros de datos, en contraposición a
utilizar los sectores del mismo, lo que reduce tiempo en las
operaciones.

El tamaño de los bloques están en el
rango de 6144bytes y 128Kb, o desde 12 a 255 sectores, lo cual
puede ser personalizable por DBS Control Utility para un
sistema de archivos por defecto o usando DATABLOCKSIZE
especificando el tamaño de datos Asignados a la
tabla.

INTEGRIDAD DE DATOS EN DISCOS (I/O DISK
INTEGRITY)

Para detectar metadatos corruptos en el sistema,
Teradata verifica lo siguiente:

Numero de versiones
Longitud de segmentos
Tipos de bloques
Bloqueo de agujeros en bloques de datos,
índice de cilindros (Cilinder Index), Índices
Maestros (MI), y estructuras de sistemas de
archivos.

Nivel Checksum

Usando…

Ninguno

Bajo

Medio

Alto

Completo

La utilidad de control de base de datos para
asignar niveles de revisión en las tablas, ejemplo
usando sentencias SQL.

CREATE TABLE

CREATE JOIN INDEX

CREATE HASH INDEX

ALTER TABLE

Tabla N° 8. Modalidades de la
Integridad de Datos

SISTEMA DE INTERFAZ GRÁFICA
TERADATA

El interfaz grafica (GUI) de Teradata (DBW) permite
que los administradores de la base de datos o del sistema
controlen la operación con la base de datos Teradata.
Este funciona en un ambiente gráfico X Windows [Unix] o
de Microsoft Windows.

¿Cómo se comunica El entorno
grafico con la base de datos?

El DBW se comunica con la base de datos de Teradata
mediante el subsistema de consola (CNS), que es parte del
software (PDE). CNS maneja esta comunicación. Desde la
ventana principal podemos tener acceso.

Capítulo IV: Teradata
DataBase

Este capitulo describe las diversas formas como el
cliente puede comunicarse con la base de datos. Teradata usa el
CLI (Call Level Interface – Nivel de Interfase de
llamadas), el cual provee rutinas de servicios, en
adición a esto Teradata soporta estándares para
protocolos
actuales

COMUNICACIÓN ENTRE EL CLIENTE Y LA BASE DE
DATOS

Métodos de Adhesión

Los clientes pueden conectarse a la base de datos
mediante un canal a través de una IBM Mainframe o a
través de una LAN, las
aplicaciones que estos pueden ejecutar son: CLIv2 (call level
interface v2), estas interfaces pueden variar dependiendo el
sistema operativo sea este Windows (WinCli) o Unix MP-RAS (ODBC
u ODBC).

CLIv2 proporciona las siguientes acciones:

Administra múltiples de solicitudes de
ejecución en una sola sesión. Administra
múltiples sesiones en simultáneo para el mismo o
diferente servidor.

Utiliza procesos cooperativos incrementando su
rendimiento en los clientes.

Teradata Director Program

TDP administra las comunicaciones entre CLIv2 y el
servidor. El programa se ejecuta en el mismo mainframe que
CLIv2, pero se ejecuta como si fuese una máquina
virtual. Un solo TDP se asocia a un servidor lógico
donde cada TDP es referido por su uso con un identificador
llamado el TDPid (TDP2). Las funciones del TDP
incluyen:

Inicio y cierre de sesión
Logeo, verificación, recuperación, y
reinicio
Conexión de Entrada y salida física al
servidor, incluyendo balanceos de sesión u operaciones
de mantenimiento.
Seguridad.

SERVIDOR

Un servidor procesa e implementa los requerimientos
recibidos de CLIv2 via TDP, la siguiente figura ejemplifica
estos eventos.

OTROS TIPOS DE COMUNICACIÓN

Estos tipos esta disponibles para sistemas Windows o
UNIX MP-RAS. WinCLI: Es un interfase para DOS o Ventanas
Windows, las rutinas CLI proveen acceso a los módulos
como objetos los cuales han sido compilados o ensamblados de
acuerdo al estándar de vínculos. WinCLI utiliza
el protocolo
DDE (Dynamic Data Exchange) para comunicarse con las
aplicaciones.

ODBC: Conectividad para bases de datos
Abiertas, el driver de teradata provee una interfase
alternativa para el acceso a la base de datos teradata, el cual
proporciona un Núcleo SQL de nivel 1 y algunas
extensiones del nivel 2, con capacidades para conexión
por sockets, TCP/IP. ODBC
Driver para teradata opera de manera independiente a CLI o
WinCLI.

JDBC: Proporciona acceso a la base de datos
usando lenguaje Java,
proporciona un ambiente independiente de la plataforma, ejecuta
sentencias SQL y procesa los resultados. El driver JDBC de
Teradata implementa clases para comunicaciones entre el gateway
y el host.

ADMINISTRACIÓN DEL SISTEMA

Asignación de espacio para las Bases de Datos
y los Usuarios

No sólo se refiere al espacio requerido en
disco, también el espacio requerido para los
usuarios.

Para Teradata, una base de datos es una
colección de tablas, vistas, procedimientos almacenados
y macros. Una base de datos también contiene espacio
para que los usuarios puedan tener sus propias tablas, vistas,
macros, procedimientos almacenados o a otros
usuarios.

Usuarios y Bases de Datos

Cuando Teradata es instalada por primera vez,
sólo existe un usuario en el sistema, DBC. El
administrador de la base de datos tiene que administrar a este
usuario y asigna espacio de DBC para otros usuarios.

El usuario DBC es propietario de todas las otras bases
de datos y usuarios en el sistema.

Como crear Bases de Datos

Se usa la sentencia CREATE DATABASE para crear una base
de datos.

CREATE DATABASE Personal FROM
Administracion

AS PERMANENT = 5000000 BYTES,

FALLBACK,

BEFORE JOURNAL, DUAL AFTER JOURNAL,

DEFAULT JOURNAL TABLE = Personal.FinCopy;

La base de datos Personal es creada en el
espacio de Administración.

Para crear la base de datos, el creador debe tener los
privilegios necesarios.

5000000 representa la capacidad de almacenamiento de
la base de datos.

La palabra FALLBACK especifica una copia duplicada de
cada tabla almacenada.

La opción JOURNAL especifica una copia de la
imagen antes
de cambiarla.

La cláusula DEFAULT JOURNAL TABLE es requerida
porque el journaling es pedido. Esta cláusula especifica
una tabla de control diario llamada FinCopy que va a ser
creada en la base de datos.

CREACIÓN DE USUARIOS

Se usa la sentencia CREATE USER para crear un nuevo
usuario:

CREATE USER Jones

FROM "F&A"

AS PERMANENT = 1000000 BYTES,

SPOOL = 1000000 BYTES,

PASSWORD = Jan,

FALLBACK,

ACCOUNT = ‘Administration’,

STARTUP = ‘DATABASE
"F&A";’

;

La cláusula opcional STARTUP especifica una o
más sentencias Teradata SQL, que el sistema puede
ejecutar automáticamente cuando este usuario establece
una sesión.

ROLES Y PERFILES PARA LOS USUARIOS

Los roles y perfiles simplifican la
administración del sistema:

USANDO…	SIMPLIFICA LA ADMINISTRACIÓN PORQUE…
Roles para garantizar automáticamente derechos a los objetos de la base de datos	Cuando un usuario cambia de ocupación en su organización, cambiar roles es tan fácil con sólo borrarlos y dándole nuevos roles
Perfiles para cambiar eficientemente el parámetro asociado con los usuarios	Es fácil asignar un rol (perfil) a un nuevo usuario que especificar todos los derechos (parámetros)

Tabla N° 9 Roles y Perfiles de
Usuarios

Teradata permite poner todos los roles disponibles
haciendo:

SET ROLE ALL
En la sentencia CREATE USER o MODIFY USER

CUENTAS

ADMINISTRACIÓN DE SESIONES

Los usuarios necesitan hacer una conexión y
establecer una sesión, antes de realizar cualquier
operación.

ESTABLECIENDO UNA SESIÓN

Para establecer una sesión, el usuario necesita
hacer una conexión en la base de datos.

La cadena de conexión puede incluir cualquiera de
los siguientes operandos:

Identificador opcional para la Base de Datos, llamado
tupid
Nombre de usuario
Password
Número opcional de cuenta

PEDIDO DE SESIÓN

Una sesión es establecida luego de que la base
de datos acepta el nombre de usuario, password y retorna un
número de sesión para el proceso.

Luego los pedidos hechos por un usuario son
identificados por:

Host id
Número de sesión
Número de pedido

UTILIDADES DE MANTENIMIENTO

Algunas de las utilidades están
listadas:

LA UTILIDAD…	PERMITE…
Abort Host	Aborta todas las transacciones que estén corriendo en el host, hasta que el host es reiniciado
Check Table	Comprueba inconsistencias entre las estructuras internas de datos, y los índices secundarios
ampload	Muestra todos los procesos virtuales AMP cargados en un sistema
cnsrun	Empieza y corre una utilidad de base de datos desde un script
Configuration	Define AMPs, PEs y host y sus interrelaciones con Teradata
ctl	Muestra y modifica los campos del Parallel Data Extensions (PDE)
Database Initialization Program (DIP)	Ejecuta una o más scripts del estándar DIP SQL
DBS Control	Salva o restaura los dumps del sistema en el disco
Ferret	Muestra los parámetros de la acción Mueve los datos para reconfigurar los bloques de datos y cilindros
Filer	Encuentra y corrige problemas en el Sistema de Archivos de Teradata
fsgwizard	Manipula los archivos de segmentos de la base de datos de Teradata que han sido colocados en un estado erróneo
Gateway control	Modifica los valores por defecto en los campos Gateway Control Globally Distribuye Object (GDO)
Gateway global	Monitorea y controla la red interconectada de Teradata (usuarios y sesiones)
Locking logger	Anota: Identificadores de transacción Identificadores de sesión Identificadores lock object Niveles de lock
modmpplist	Modifica la lista de nodos
Priority scheduler	Prioriza el programa de procesos
Query configuration	Reporta la actual configuración de la Base de Datos Teradata.
Query session	Monitorea el estado de todas las sesiones en todos los hosts
Reconfiguration	Implementa el sistema que es descrito en el mapa de configuración
Reconfiguration estimato	Estima el tiempo para reconfigurar
Recovery manager	Muestra toda la información usada para monitorear el progreso de recuperación de Teradata
Reource Check Tools	Muestra las estadísticas del sistema que pueden estar causando un bajo rendimiento
RSSmon	Selecciona los datos relevantes de un Resource Sampling Subsytem
Show locks	Muestra los locks puestos por las operaciones realizadas por Archive and Recovery y Tabla Rebuild en base de datos o en tablas.
System initializer	Inicia la Base de Datos Teradata Actualizar la DBS Control Record y otro Globally Distributed Objects (GDOs)
Table Rebuild	Reconstruir las tablas que no se pueden recuperar automáticamente. Parte primaria de una tabla La tabla entera Todas las tablas en la base de datos Todas las tablas con Access Module Proccessor (AMP)
tdlocaledef	Convierte el Source Specification for Data Formatting (SDF) en una forma de base de datos interna
tdnstat	Hace las operaciones GetStart / ResetStat Muestra, obtiene o borra las estadísticas de Teradata Network Services
tdntune	Ejecuta leer/escribir de tdn tunables. Puede usar la interface para ver, obtener o actualizar el Teradata Network Services, que son especificados con los parámetros �unable.
Teradata MutiTool	Usa una GUI para correr comandos de la base de datos Teradata basados en línea de comandos.
Tsklist	Muestra información acerca de que procesos PDE y sus tareas.
Update DBC	Recalcula el espacio en la tabla DBASE para el usuario DBC, y para todas las base de datos basadas en la tabla DBASE
Update Space	Recalcula el espacio permanente, temporal o spool usado por una base de datos o por todas las base de datos en el sistema.
Vpacd	Mejora el rendimiento de los sistemas con muchas CPUs y un gran nivel de concurrencia.
Vproc manager	Administra los procesos virtuales (vprocs), permite operaciones como: Obtener el estado de un vproc Inicializar vprocs Forzar un vproc a reiniciar Forzar a la Base de Datos Teradata a reiniciar
xctl	Muestra y modifica los campos del Parallel Database Engine (PDE) Control Parameters Globally Distributed Objects (GDOs).
Xmppconfig	Manipula los contenidos del nodo del archivo de la tabla, que contiene una lista de nodos y sus configuraciones. La información de la configuración del sistema es proporcionada por el Procedural Management Subsystem (PROC) de un PDE.
Xperfstate	Muestra el rendimiento en tiempo real de un sistema PDE
xpsh	Usa un GUI para resolver varias tareas de nivel de sistema en un entorno MPP, como: depuración, análisis, monitoreo, administración de sistema, y así sucesivamente.

Tabla N° 10

SEGURIDAD EN LA BASE DE DATOS TERADATA

LIBRERÍA DE SEGURIDAD

La seguridad en Teradata esta basado en la
librería Teradata Database Generis Securtity Services
(TDGSS), TDGSS esta compuesto por:

Un set de mecanismos preconfigurados
Archivos de configuración
editables
Un set de herramientas e interfaces para configurar y
administrar las funciones de seguridad en red

CARACTERÍSTICAS DE SEGURIDAD

Mecanismos de seguridad: Seleccionado
para poner el contexto de seguridad para la sesión. Cada
mecanismo de seguridad define un único contexto de
seguridad.
Autenticación de usuario:
Verificación de la identidad de
un usuario al momento de la conexión.
Autorización de usuario: Los
usuarios deben tener los permisos necesarios. El sistema
evalúa cada pedido SQL de los usuarios para actuar de
acuerdo a sus privilegios de acceso.
Encripción: La
transmisión de datos mediante la red es
codificada.
Integridad de los datos: El sistema
verifica mensajes recibidos contra los que fueron enviados,
para asegurarse de que los datos no han sido perdidos o
corrompidos durante la transmisión.
Guía de Administración de
Usuarios: Las guías soportadas pueden ser
configuradas para autenticar usuarios y privilegios de acceso a
la base de datos.
Acceso Monitoreado a la Base de Datos:
Provee la habilidad de identificar transgresiones,
transgresores y potenciales peligros de seguridad.

MECANISMOS DE SEGURIDAD

Teradata emplea mecanismos de seguridad para definir
el contexto de seguridad en cual la sesión de la base de
datos debe correr. Cada mecanismo esta compuesto por un
número de propiedades que definen su funcionalidad,
algunas de sus propiedades son editables, todos los mecanismos
de seguridad son construidos usando la librería
TDGSS.

MECANISMO	USO
Método Teradata #1 (TD1)	Los pedidos bajo autenticación de usuario. Este mecanismo es usado solamente para mantener la compatibilidad. Se debería usar si: La versión del sistema cliente es TTU7.1 – El servidor es V2R5.1.x –
Método Teradata #2 (TD2)	Los pedidos a Teradata llevan a cabo la autenticación de usuario. Se debería usar si: La versión del sistema cliente es TTU8.0 + El servidor es V2R6.0 +
Kerberos (KRB5 y KRB5C)	Realizan una autenticación externa de usuario. Se usa KRB5C si: La versión del sistema cliente es TTU7.1 – El servidor es V2R5.1.x –
Kerberos (KRB5 y KRB5C)	Se usa KRB5 si: Los sistemas clientes son TTU8.0 + El servidor es V2R6.0 +
NTLM (NTLM y NTLMC)	Realizan una autenticación externa de usuario. Se usa NTLMC si: La versión del sistema cliente es TTU7.1 – El servidor es V2R5.1.x –
NTLM (NTLM y NTLMC)	Se usa NTLMC si: Los sistemas clientes son TTU8.0 + El servidor es V2R6.0 +
*LDAP*	Realizan una autenticación basada en directorio externa de usuario. Esta disponible si: El sistema cliente es TTU8.0 + El servidor es V2R6.0 +